Open-vocabulary segmentation 調査メモ
要点
Open-vocabulary segmentation は、学習時に固定されたラベル集合を超えて、自由なテキスト語彙で画像中の領域を切り分けて認識する流れとして発展してきた研究領域です (OVS Survey)。
2022年ごろの初期フェーズでは、CLIP や ALIGN のような vision-language model の語彙能力を、セグメンテーションへどう移すかが中心課題で、OpenSeg は「まず領域をまとめること」が重要だと整理し、画像キャプション由来の supervision でも open-vocabulary segmentation をスケールさせられることを示しました ( OpenSeg)。
2023年には OVSeg、OpenSeeD、FC-CLIP のように、proposal-based な設計を洗練したり、検出と統合したり、2段構成を1段化して効率を改善する流れが強くなりました (OVSeg, OpenSeeD, FC-CLIP)。
2024年以降は、CLIP 単体の弱点である局在化の弱さを、SAM・DINO・その他の vision foundation model の空間的一貫性で補う方向、training-free で性能を押し上げる方向、segment embedding を独立に学習する方向、評価指標そのものを見直す方向へ広がっています (ProxyCLIP, PnP-OVSS, USE, SCAN)。
2025年には、そもそも既存ベンチマークが「本当に open-vocabulary か」を問い直す議論や、クラス名入力すら不要にする vocabulary-free segmentation の提案も出ており、研究の焦点が「CLIP をどう使うか」から「どんな未知性を本当に測るべきか」へ少し移りつつあります (OpenBench / OVSNet, Vocabulary-Free Segmentation)。
知っておくべき概念
open-vocabulary semantic segmentation は、与えたテキストカテゴリに従って各ピクセルへ意味ラベルを割り当てる設定で、訓練クラス外のカテゴリにも対応したいという問題です (OVSeg, ZegCLIP)。
近い言葉として zero-shot semantic segmentation がありますが、こちらは「seen / unseen」の分割を明示した評価設定として語られることが多く、open-vocabulary segmentation はより広く「自由なテキスト語彙による推論」を含む枠組みとして扱われます (ZegCLIP, OVS Survey)。
実務的には次の3つを区別すると理解しやすいです。
- semantic segmentation: 各ピクセルにカテゴリを付ける設定で、主指標は mIoU が中心です (OVSeg CVPR PDF)。
- instance segmentation: 個々の物体インスタンスごとに mask を出す設定で、AP が使われます (FC-CLIP, OpenSeeD)。
- panoptic segmentation: thing / stuff を統合して評価する設定で、PQ が主に使われます (FC-CLIP, OpenSeeD)。
最近の潮流
初期の中心課題
初期の大きな論点は、画像レベルで強い CLIP / ALIGN が、なぜピクセルレベルではそのままの効果を発揮しないのか、でした (OpenSeg, OVSeg)。
OpenSeg は、caption supervision のみでも「mask proposal と word-region alignment」を通じて open-vocabulary segmentation を学べると示し、LSeg より PASCAL で大幅に良い結果を報告しました (OpenSeg)。
OVSeg は、2段法のボトルネックが mask proposal 自体よりも「masked image に対する CLIP 分類性能」にあると分析し、caption から集めた多様な mask-category pair で CLIP を masked region 向けに適応させることで性能を押し上げました (OVSeg, OVSeg project)。
2段法から1段法・統合モデルへ
ZegCLIP は、proposal 生成器と CLIP を別々に回す複雑な2段法ではなく、patch と text embedding の類似度から直接マスクを出す1段構成に寄せ、zero-shot 性能と計算効率の両立を狙いました (ZegCLIP)。
FC-CLIP は frozen convolutional CLIP を共有 backbone として使い、mask 生成と open-vocabulary 分類を単一段で扱う設計により、精度と速度のトレードオフを改善しました (FC-CLIP)。
OpenSeeD は segmentation と detection を共同学習し、語彙とアノテーション粒度のギャップを1つの encoder-decoder 内で吸収する方向を強く打ち出しました (OpenSeeD)。
この流れは、「open-vocabulary segmentation を単体タスクとして作る」より、「検出・パノプティック・ユニバーサル segmentation とまとめて作る」方向を後押ししています (OpenSeeD, Awesome OVS list)。
CLIP の局在化不足を別基盤で補う流れ
近年かなり重要なのは、CLIP の語彙能力は強いが spatial localization が弱いので、DINO や SAM のような spatially consistent な foundation model と組み合わせる方向です ( ProxyCLIP)。
ProxyCLIP は、vision foundation model の特徴対応を proxy attention として CLIP に与える training-free 手法で、8ベンチマーク平均 mIoU を 40.3 から 44.4 へ改善したと報告しています (ProxyCLIP)。
Talk2DINO も同じ発想で、DINOv2 のパッチ表現と CLIP の言語表現を橋渡しし、backbone 自体は fine-tune せずに spatial quality と language grounding を両立させようとしています (Talk2DINO)。
この方向は、「semantic richness は VLM、local coherence は VFM」という役割分担の整理として理解すると見通しが良いです (ProxyCLIP, Talk2DINO)。
training-free の存在感
PnP-OVSS は text-to-image cross-attention を持つ off-the-shelf VLM から、追加学習なしで open-vocabulary semantic segmentation を引き出す training-free 手法です (PnP-OVSS)。
training-free 系は、「追加データや大規模学習コストなしでどこまで dense prediction を引き出せるか」を問う流れで、CLIP を少し手当てする手法、diffusion の attention を読む手法、SAM と組み合わせる手法へ分岐しています (PnP-OVSS, Awesome OVS list)。
研究としては、training-free は本当に強いベースラインなので、学習型手法を提案するなら「学習コストに見合う差」を示せるかがかなり重要です (PnP-OVSS, ProxyCLIP)。
segment embedding を主役にする流れ
USE は、SAM のようなクラス非依存の segment generator と、巨大語彙へ写像できる universal segment embedding を分けて設計し、open-vocabulary segmentation に加えて querying や ranking のような downstream task まで見据えています (USE)。
これは「ピクセル分類」より「segment retrieval / segment representation」に近い発想で、今後の応用先が広いです (USE)。
評価の見直し
SCAN は、既存の mIoU 評価が semantic duplication を無視していると指摘し、chair / armchair のような意味的に近いカテゴリをより open-vocabulary らしく扱う SG-IoU を提案しました (SCAN, SCAN PDF summary)。
さらに 2025 年の OpenBench / OVSNet 系の議論では、ADE-150 や PC-59 のような標準ベンチマークが COCO 由来の訓練空間と意味的に近すぎて、本当の未知カテゴリ汎化を十分に測れていないと主張しています (OpenBench / OVSNet)。
この点はかなり重要で、今後は「既存ベンチマークで強い」だけでは研究として弱く見える可能性があります (OpenBench / OVSNet, SCAN)。
vocabulary-free への拡張
Open-vocabulary segmentation は普通、推論時にクラス名をユーザが入力する前提ですが、Vocabulary-Free Segmentation はそのクラス名入力自体を自動化しようとしています (Vocabulary-Free Segmentation)。
これは「画像に何があるか分からないから segmentation したいのに、先にクラス名を全部知っている必要がある」という chicken-and-egg 問題を解こうとする発想です (Vocabulary-Free Segmentation)。
何を目的にやっているか
open-vocabulary segmentation の目的は、固定ラベル集合に依存しない scene understanding を実現することです (OVS Survey)。
研究上の目的は大きく次の4つに分けて考えると整理しやすいです。
- 未知カテゴリへの汎化: seen classes に合わせすぎず unseen concepts を拾うことです (ZegCLIP, SCAN)。
- 空間精度の改善: CLIP の coarse な対応を、mask boundary や local coherence を保つ dense prediction へ変えることです (ProxyCLIP, FC-CLIP)。
- 学習コストと性能の両立: 追加アノテーションや大規模 fine-tuning をどこまで減らせるかです (PnP-OVSS, OVSeg)。
- 人が使いやすい open-world interface: 手でクラス集合を列挙しなくても、自然言語や自動タグで segmentation できるようにすることです (Vocabulary-Free Segmentation, USE)。
応用面では、ロボティクス、自動運転、リモートセンシング、医用、3D scene understanding など、ラベル空間が閉じていない領域で特に意味があります (OVS Survey, AerOSeg, 3D-OVS)。
よく使われる指標とベンチマーク
指標
semantic segmentation では mIoU が基本です (OVSeg CVPR PDF)。
instance segmentation では AP、panoptic segmentation では PQ がよく使われ、FC-CLIP のような論文では mIoU / AP / PQ を並べて報告しています (FC-CLIP)。
SCAN は open-vocabulary setting では semantic duplication を考慮すべきだとして SG-IoU を提案しており、今後の評価議論では知っておく価値があります (SCAN, SCAN PDF summary)。
定番ベンチマーク
OVSeg の整理が分かりやすく、代表的な semantic segmentation 評価セットは次の5つです (OVSeg project, OVSeg CVPR PDF)。
| 略称 | 意味 | 用途 |
| A-150 | ADE20K-150 | 比較的標準的な open-vocabulary semantic segmentation 評価 (OVSeg CVPR PDF) |
| A-847 | ADE20K-847 | より多カテゴリで細かい評価 (OVSeg CVPR PDF) |
| PC-59 | PASCAL-Context-59 | 59カテゴリの評価 (OVSeg CVPR PDF) |
| PC-459 | PASCAL-Context-459 | より多カテゴリの評価 (OVSeg CVPR PDF) |
| PAS-20 | PASCAL VOC 20 classes | 古典的だが比較にはまだ使われる (OVSeg CVPR PDF) |
ただし OpenBench の議論では、これら既存セットは COCO ベースの訓練空間と意味的に近いクラスが多く、真の未知性やセマンティック距離を十分に反映しないと批判されています (OpenBench / OVSNet)。
読むべき論文
- OpenSeg, 2022
- caption supervision で open-vocabulary segmentation をスケールさせる初期の重要論文で、「region grouping が必要」という考え方の起点として読む価値があります (OpenSeg)。
- ZegCLIP, 2023
- CLIP を pixel-level zero-shot segmentation へ1段構成で寄せると何が起きるかを見るのに向いています (ZegCLIP)。
- OVSeg, 2023
- proposal-based 系の代表で、masked region 向け CLIP adaptation という発想が今でも参照されます (OVSeg, OVSeg GitHub)。
- OpenSeeD, 2023
- segmentation 単体ではなく detection と一緒に open-world perception を作る流れを理解するのに良いです (OpenSeeD)。
- FC-CLIP, 2023
- 2段法から1段法への効率改善と、frozen CLIP backbone をそのまま dense task に使う流れを押さえられます (FC-CLIP)。
- SCAN, 2024
- 手法だけでなく評価の歪みを含めて考え始める論文として重要です (SCAN)。
- CAT-Seg, 2024
- cost volume / cost aggregation という整理を通じて、pixel-text matching をどう集約するかの代表例です (CAT-Seg)。
- PnP-OVSS, 2024
- training-free の強さを理解するための必読です (PnP-OVSS)。
- ProxyCLIP, 2024
- CLIP と vision foundation model の役割分担が最も分かりやすい論文の1つです (ProxyCLIP)。
- USE, 2024
- segment embedding を中核に据えた設計で、今後の retrieval 的な発展を考える上で有用です (USE)。
- Talk2DINO, 2024
- self-supervised visual model と language model の橋渡しという最近の方向を具体的に見られます (Talk2DINO)。
- From Open-Vocabulary to Vocabulary-Free Semantic Segmentation, 2025
- 「クラス名を誰が出すのか」という次の課題を見せてくれます (Vocabulary-Free Segmentation)。
全体像の俯瞰用
- OVD/OVS Survey はタスク分類、方法分類、課題整理の入口として便利です (OVS Survey)。
- 継続的に論文を追うなら curated list も有用です (Awesome OVS list)。
研究テーマ例
1. semantic と localization の分業をどう最適化するか
CLIP 系の semantic prior と、SAM / DINO 系の local coherence をどう結合すると最も効くかは、まだかなり大きいテーマです (ProxyCLIP, Talk2DINO)。
具体的には、attention 融合、feature correspondence、mask proposal reranking、segment embedding の共有空間化などが考えられます (ProxyCLIP, USE)。
2. fine-tuning すると何を失うのか
OpenBench の議論は、既存データセットでは fine-tuned CLIP が強く見えても、本当に訓練空間から離れた概念では frozen CLIP の方が有利な場合があることを示唆しています (OpenBench / OVSNet)。
そのため、「どの層を、どの程度、どの損失で適応させると open-vocabulary 性を壊すのか」を定量化するテーマは良いです (FC-CLIP, OpenBench / OVSNet)。
3. evaluation protocol の再設計
semantic duplication、background / other の扱い、query category の数、training vocabulary との意味距離などを明示した評価設計は、まだ発展余地があります (SCAN, OpenBench / OVSNet)。
これは新手法提案がなくても、かなり価値のある研究テーマです (SCAN, OpenBench / OVSNet)。
4. vocabulary-free / auto-query generation
ユーザがクラス名を指定しなくても、有望カテゴリ候補を生成して segmentation までつなげる方向です (Vocabulary-Free Segmentation)。
LLM / VLM を使って class proposal を出し、その後に segmentation を回す構成は、実際の利用体験に近いので研究としても応用としても面白いです (Vocabulary-Free Segmentation)。
5. open granularity / part segmentation
object レベルではなく part レベルへ行くと、語彙の曖昧さと粒度差が一気に難しくなります (OV-PARTS)。
part segmentation は今後伸びやすい領域で、segment embedding 系や retrieval 系と特に相性が良いはずです (USE, OV-PARTS)。
6. ドメイン適応
remote sensing、medical、3D scene では open-vocabulary segmentation の意義が大きい一方、自然画像との差が大きいので、domain gap が強く効きます (AerOSeg, 3D-OVS, OpenDAS)。
「自然画像で学んだ language grounding を、どれだけ annotation-light に別ドメインへ移せるか」は有望です (OpenDAS, AerOSeg)。
何から始めると良いか
研究を始める順番
- 1週目は OpenSeg、ZegCLIP、OVSeg、FC-CLIP を読んで、proposal-based / one-stage / CLIP adaptation の差分を1ページにまとめるのが良いです (OpenSeg, ZegCLIP, OVSeg, FC-CLIP)。
- 次に PnP-OVSS、ProxyCLIP、USE を読んで、training-free、VFM 融合、segment embedding という2024年の主要3方向を比較すると全体像がかなり見えます (PnP-OVSS, ProxyCLIP, USE)。
- そのあと SCAN と OpenBench の議論を読むと、「どの評価で勝つべきか」を早い段階で意識できます (SCAN, OpenBench / OVSNet)。
実装を始めるなら
最初の再現対象は OVSeg か FC-CLIP が無難で、どちらも代表性が高く、コードも公開されています (OVSeg GitHub, FC-CLIP)。
training-free の強い下限を先に持ちたいなら PnP-OVSS や ProxyCLIP 系の再現を入れると、後で学習型手法を提案するときの比較基準として効きます (PnP-OVSS, ProxyCLIP)。
最初のミニ研究案
- 研究案A: frozen CLIP と fine-tuned CLIP を、既存ベンチマークと OpenBench 的な離れた語彙空間の両方で比較する (OpenBench / OVSNet)。
- 研究案B: SAM / DINO / MAE など、どの visual foundation model の spatial prior が最も効くかを proxy attention 系で比較する (ProxyCLIP)。
- 研究案C: class-name prompt ではなく description prompt や LLM-generated prompt を使い、semantic duplication の多いベンチマークで安定性を見る (SCAN, Vocabulary-Free Segmentation)。
- 研究案D: object ではなく part segmentation へ同じ設計を持ち込んで、granularity gap を調べる (OV-PARTS)。
知っておくべき注意点
既存ベンチマークの成績だけを見て「本当に open-vocabulary に強い」と言い切るのは危険です (OpenBench / OVSNet)。
特に ADE-847 や PC-459 はカテゴリ数が多く一見難しそうでも、semantic duplication の影響が強く、評価の読み方に注意が必要です (SCAN, OpenBench / OVSNet)。
また、training-free 系がかなり強いので、学習型の新手法は「なぜ学習が必要か」を明確にしないと説得力が出にくいです (PnP-OVSS, ProxyCLIP)。